由于扩散张量成像(DTI)由于其独特的非侵入性评估心脏微观结构的能力而获得了心脏成像的流行,因此基于深度学习的人工智能正在成为减轻其一些缺点的重要工具,例如长期扫描时间。由于经常在快节奏的研究环境中发生,因此许多重点是展示深度学习的能力,而通常没有足够的时间来研究什么投入和建筑属性将使心脏DTI加速最大。在这项工作中,我们比较了几种输入类型(幅度图像与复杂图像),多个维度(2D vs 3D操作)以及多个输入类型(单片与多板)对训练训练的模型的性能的效果由同时的多层(SMS)采集引起的人工制品。尽管我们最初的直觉,但我们的实验表明,对于固定数量的参数,更简单的2D实价模型的表现优于其更高级的3D或复杂的对应物。最好的性能是,尽管使用获得的数据的幅度和相位组件训练了实现的模型。我们认为,这种行为是由于实现的模型可以更好地利用较低的参数,并且由于我们实验中使用的低SMS加速度因子,因此无法利用空间信息的3D模型无法利用空间信息。
translated by 谷歌翻译
扩散张量心脏磁共振(DT-CMR)使我们能够探测体内心肌内心肌细胞的微观结构排列,这是不可侵袭性的,这是其他成像方式不允许的。这种创新的技术可以彻底改变执行心脏临床诊断,风险分层,预后和治疗随访的能力。但是,DT-CMR目前效率低下,获得单个2D静态图像所需的六分钟以上。因此,DT-CMR目前仅限于研究,但在临床上不使用。我们建议减少生产DT-CMR数据集并随后将其降低所需的重复次数,从而减少通过线性因子的采集时间,同时保持可接受的图像质量。我们提出的基于生成的对抗网络,视觉变压器和合奏学习的方法比以前提出的方法表现出色,而且要好得多,从而使单一的呼吸息dt-CMR更接近现实。
translated by 谷歌翻译
Quantifying motion in 3D is important for studying the behavior of humans and other animals, but manual pose annotations are expensive and time-consuming to obtain. Self-supervised keypoint discovery is a promising strategy for estimating 3D poses without annotations. However, current keypoint discovery approaches commonly process single 2D views and do not operate in the 3D space. We propose a new method to perform self-supervised keypoint discovery in 3D from multi-view videos of behaving agents, without any keypoint or bounding box supervision in 2D or 3D. Our method uses an encoder-decoder architecture with a 3D volumetric heatmap, trained to reconstruct spatiotemporal differences across multiple views, in addition to joint length constraints on a learned 3D skeleton of the subject. In this way, we discover keypoints without requiring manual supervision in videos of humans and rats, demonstrating the potential of 3D keypoint discovery for studying behavior.
translated by 谷歌翻译
Proactive robot assistance enables a robot to anticipate and provide for a user's needs without being explicitly asked. We formulate proactive assistance as the problem of the robot anticipating temporal patterns of object movements associated with everyday user routines, and proactively assisting the user by placing objects to adapt the environment to their needs. We introduce a generative graph neural network to learn a unified spatio-temporal predictive model of object dynamics from temporal sequences of object arrangements. We additionally contribute the Household Object Movements from Everyday Routines (HOMER) dataset, which tracks household objects associated with human activities of daily living across 50+ days for five simulated households. Our model outperforms the leading baseline in predicting object movement, correctly predicting locations for 11.1% more objects and wrongly predicting locations for 11.5% fewer objects used by the human user.
translated by 谷歌翻译
Robots operating in human environments must be able to rearrange objects into semantically-meaningful configurations, even if these objects are previously unseen. In this work, we focus on the problem of building physically-valid structures without step-by-step instructions. We propose StructDiffusion, which combines a diffusion model and an object-centric transformer to construct structures out of a single RGB-D image based on high-level language goals, such as "set the table." Our method shows how diffusion models can be used for complex multi-step 3D planning tasks. StructDiffusion improves success rate on assembling physically-valid structures out of unseen objects by on average 16% over an existing multi-modal transformer model, while allowing us to use one multi-task model to produce a wider range of different structures. We show experiments on held-out objects in both simulation and on real-world rearrangement tasks. For videos and additional results, check out our website: http://weiyuliu.com/StructDiffusion/.
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
复杂的多目标任务需要在多个相互连接的级别(例如联盟形成,调度和运动计划)上协调异质机器人。动态变化(例如传感器和执行器故障,通信损失和意外延迟)加剧了这一挑战。我们将动态迭代任务分配图搜索(D-ITAGS)介绍到\ textit {同时}地址在涉及异构团队的动态设置中,地址为联盟组建,调度和运动计划。 D-Itag通过两个关键特征实现弹性:i)交错执行,ii)有针对性的维修。 \ textIt {交错执行}可以在每一层进行有效搜索解决方案,同时避免与其他层不兼容。 \ textIt {目标修复}识别并修复了现有解决方案的一部分,该解决方案在保存其余部分的同时受到给定破坏的影响。除了算法贡献外,我们还提供理论上的见解,以了解这些设置中时间和资源最优性之间固有的权衡,并在计划次级临时性上得出有意义的界限。我们的实验表明,在动态设置中,i)d-itag的速度明显比从头开始的重新计算要快得多,而溶液质量几乎没有损失,ii)理论次优界在实践中始终保持。
translated by 谷歌翻译
人类语言中发现的最强大的模式之一是ZIPF的缩写定律,即更短的单词的趋势。自ZIPF开创性研究以来,该定律被视为压缩的体现,即形式的长度最小化 - 自然交流的普遍原则。尽管对语言进行优化的说法已经变得时尚,但衡量语言优化程度的尝试却相当稀缺。在这里,我们证明压缩在无例外的大量语言中表现出来,并且独立于测量单位。这两个单词长度都可以在书面语言的字符以及口语的持续时间中检测到。此外,为了衡量优化程度,我们得出了一个随机基线的简单公式,并提出了两个分数归一化的分数,即,它们相对于最小值和随机基线都进行了归一化。我们分析了这些和其他分数的理论和统计优势和缺点。利用最佳分数,我们首次量化了语言中单词长度的最佳程度。这表明当单词长度以字符测量时,语言平均被优化至62%或67%(取决于源),当单词长度及时测量时,平均而言,平均而言,平均而言,平均而言,平均而言,平均而言,平均至65%。通常,口语持续时间比字符中的书面单词长度更优化。除了这里报告的分析外,我们的工作还铺平了衡量其他物种发声或手势的最佳程度的方法,并将其与书面,口语或签名的人类语言进行比较。
translated by 谷歌翻译
联合学习(FL)为培训机器学习模型打开了新的观点,同时将个人数据保存在用户场所上。具体而言,在FL中,在用户设备上训练了模型,并且仅将模型更新(即梯度)发送到中央服务器以进行聚合目的。但是,近年来发表的一系列推理攻击泄漏了私人数据,这强调了需要设计有效的保护机制来激励FL的大规模采用。尽管存在缓解服务器端的这些攻击的解决方案,但几乎没有采取任何措施来保护用户免受客户端执行的攻击。在这种情况下,在客户端使用受信任的执行环境(TEE)是最建议的解决方案之一。但是,现有的框架(例如,Darknetz)需要静态地将机器学习模型的很大一部分放入T恤中,以有效防止复杂的攻击或攻击组合。我们提出了GradSec,该解决方案允许在静态或动态上仅在机器学习模型的TEE上进行保护,因此将TCB的大小和整体训练时间降低了30%和56%,相比之下 - 艺术竞争者。
translated by 谷歌翻译
推荐系统被证明是提取与用户相关的内容帮助用户进行日常活动的宝贵工具(例如,找到相关的访问地点,要消费的内容,要购买的商品)。但是,为了有效,这些系统需要收集和分析大量个人数据(例如,位置检查,电影评分,点击率等),这使用户面临许多隐私威胁。在这种情况下,基于联合学习(FL)的推荐系统似乎是一个有前途的解决方案,可以在计算准确的建议的同时将个人数据保存在用户设备上时,是一个有前途的解决方案。但是,FL,因此基于FL的推荐系统,依靠中央服务器,除了容易受到攻击外,还可以遇到可伸缩性问题。为了解决这个问题,我们提出了基于八卦学习原理的分散推荐系统Pepper。在胡椒中,用户八卦模型更新并不同步。 Pepper的核心位于两个关键组成部分:一个个性化的同行采样协议,该协议保存在每个节点附近,这是与前者具有相似兴趣的节点的一部分,以及一个简单而有效的模型汇总功能,该功能构建了一个模型更适合每个用户。通过在三个实施两个用例的实验实验中进行实验:位置入住建议和电影推荐,我们证明我们的解决方案比其他分散的解决方案快42%收敛于42%与分散的竞争对手相比,长时间性能的命中率和高达21%的速度提高了21%。
translated by 谷歌翻译